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A 摘要 ”本文 简 要 介绍 了 分 子 分 类 学 中 的 凡 个 重要 问题 : 即 、(1) 分 子 分 类 法 的 优点 及 其 局 限 


性 ，{2) 分 子 树 和 物种 树 的 关系 全 ) 分 子 钟 与 分 子 分 类 法 的 关系 ; (4 核酸 序列 数据 与 蛋白 质 序列 
数据 之 比较 ; (SYMP. NJ 和 ML 法 之 比较 ; (6) 分 子 树 的 可 靠 性。 另外 还 简要 介绍 了 两 个 分 子 分 
类 软件 ，PHYLIP 和 CLUSTALYV。 
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PCR(polymerase chain ceaction) 技 术 的 诞生 和 发 展 ， 为 分 了 分 类 学 (molecular system- 
atics) 开 辟 了 广 阅 的 前 景 。 最近 几 年 ， 这 一 领域 的 发 展 非常 快 ， 有 关 文 献 报 道 猛 增 。 我 国 
在 这 一 领域 可 以 说 是 尚 处 于 起 步 阶 段 ， 有 关 的 研究 报道 也 较 少 ， 很 多 新 的 理论 方法 尚未 被 
引进 和 应 用 。 由 于 构建 分 子 树 的 方法 种 类 繁多 ， 如 果 对 有 关 方 法 的 前 担 ， 可 靠 性 和 局 限 性 
等 因素 缺乏 充分 的 了 解 ， 在 分 析 数 据 时 极 有 可 能 出 现 差错 ， 这 方面 的 例子 并 不 少见 。 如 
Gorr FUDR RATS ARR. UW Baw 总 鳍 鱼 ( 矛 尾 鱼 ) 的 亲缘 最 近 ， 但 随后 不 
A. Stock 等 (1991)，Sharp 等 (1991J 及 Meyer 等 (1991) 分 别 撰文 指出 Gorr 等 {1991) 的 分 
析 有 误 。 考 虚 到 上 述 情 襄 、 本 文 拟 就 分 子 分 类 理论 方法 方面 的 若干 问题 作 一 初步 介绍 和 讨 
论 。 

1 分 子 分 类 法 的 优点 及 其 局 限 性 


在 形态 分 类 研究 中 。 常 会 遇 到 的 一 个 问题 是 趋同 进化 (convergent evolution) 所 导致 的 
性 状 有 时 很 难 与 垂直 遗传 ( 沿 谱系 传递 ) 的 性 状 相 区 分 。 许 多 分 类 问题 之 所 以 长 期 悬 而 未 
决 ， 就 是 由 于 不 同 的 分 类 学 家 对 某 些 性 状 究竟 是 否 垂直 性 状 看 法 不 间 所 致 。 这 方面 一 个 较 
典型 的 例子 是 关于 四 足 类 ， 总 铺 鱼 和 肺 鱼 的 关系 问题 (Forey，1988)。 

相对 而 言 ， 趋 同 进化 的 问题 在 分 子 分 类 中 不 是 那样 严重 ， 从 理论 上 说 、 两 个 物种 各 自 
独立 地 产生 相同 DNA 序列 (如 果 足 够 长 ) 几 乎 是 不 可 能 的 。 随 机 产生 某 一 由 n 个 核 背 酸 组 
成 的 序列 的 概率 为 (1 / 4*"， 两 个 体 同 时 产生 这 一 序列 的 可 能 性 为 (1 7 4)"， 如 果 n= 100, 
即使 假定 这 两 序列 不 完全 相同 ， 其 最 终 的 概率 也 小 得 几乎 不 可 能 发 生 。 在 分 子 分 类 中 ， 虽 
然 不 会 有 趋同 性 状 的 和 干扰， 但 也 有 一 个 与 之 相似 的 问题 ， 即 重复 基因 的 问题 。 例 如 ， 假 定 
A, B, C, D 4 物种 的 共同 搬 先 的 某 一 基因 已 发 生 重复 ， 成 为 X1 与 X2， 以 后 一 支 (X1) 
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演化 成 XIA、X1B、X1C、X1D; 而 另 一 支 (X2) 演 化 成 X2A、X2B、X2C、X2D。 在 构 
建 分 子 树 应 采用 垂直 的 性 状 ， 如 XIA、XIB、XIC、X1D， 或 X2A，X2B、X2C、 
X2D， 否 则 便 会 得 出 错误 结论 . 

分 子 分 类 法 的 最 大 的 局 候 性 是 数据 来 源 的 限制 。 以 前 DNA 只 能 从 新 鲜 组 织 中 提取 ， 
现在 利用 PCR 技术 ， 不 但 可 以 从 福 尔 马 林 固定 的 标本 中 提取 ， 巷 至 可 以 从 几 千 年 的 动物 
遗 艇 中 取得 ， 这 是 一 个 巨大 的 进步 、 但 即使 如 此 ， 数 据 的 来 源 仍 很 有 限 ， 与 形态 分 类 法 相 
比 ， 分 子 分 类 的 费用 仍 较 郧 贵 。 

过 去 对 分 子 分 类 法 的 批评 ， 主 要 集中 在 下 列 几 点 : 

a. 由 于 分 子 进 化 并 非 严格 恒 速 ， 因 些 分 子 序列 的 相似 性 未 必 与 物种 的 系统 发 生 树 相 
一 致 。 假 定 在 下 列 物种 树 (A，B)，C) 中 ， 如 果菜 分 子 在 B 谱系 的 进化 速率 显著 快 于 A， 
C 两 谱系 ， 则 可 能 导致 A，C 两 物种 的 分 子 序列 相似 性 最 大 从 而 得 到 (A、C)，B) 这 样 的 
分 子 树 . 

b. 下 不 同 分 子 分 类 方法 分 析 同 一 组 数据 ， 有 时 会 得 出 相互 媳 盾 的 结论 。 

c 用 同样 一 群 物种 的 不 同 大 分 子 为 材料 ， 用 同样 的 方法 分 析 ， 往 往 会 得 到 不 同 的 结 
果 . 

现在 看 来 ， 这 3 个 问题 。 已 不 象 前 些 年 那样 严重 了 。 虽然 有 些 方法 是 以 分 子 进化 恒 速 
性 为 前 提 的 ， 但 另 有 一 些 方法 ， 如 ML 法 (maximum likelihood method) 对 分 子 进 化 的 速 
率 的 变异 并 不 是 十 分 敏感 。 后 两 个 问题 。 随 着 分 子 树 置 信 区 间 分 析 方 法 的 建立 和 发 展 ， 已 
在 很 大 程度 上 得 到 解决 











z pee -一 一 4$ x 
4 Sor a 
LO i ; 
a c ‘Sy Pf 
a Xs 
fbi 
图 1 基因 树 和 物种 树 的 关系 图 2 两 种 建树 方法 
Fig. 1 The relationship between molecular Fig. 2 The two ways for constructing molec- 


tree and species tree ular tree 
每 一 个 方 框 代 表 一 个 个 体 。 方 框 中 的 两 个 小 园 表 示 a 中 各 物种 是 捧 次 添 到 树 上 ; b 中 是 从 所 有 物种 中 
二 人 悦 体 基因 组 (Hasegawa $, 1991). 取出 两 个 最 近 的 物种 来 彤 次 构建 分子 树 . 


2 分 子 树 与 物种 树 的 关系 


依据 分 子 序列 构建 的 反映 分 子 系 统 发 生 的 分 支 树 称 之 为 分 子 树 (molecular tree)， 而 反 
映 物 种 实际 种 系 发 生 的 树 称 之 为 物种 树 (species tree), 分子 分 类 学 的 目的 就 是 通过 分 子 树 
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来 推测 物种 树 ， 在 许多 情况 下 ， 这 两 者 是 至 的 ， 但 下 列 两 个 因素 可 能 会 造成 分 子 树 与 物 
种 树 相 偏离 。 

a. 遗传 沙漏 (genetic introgression). # DNA 跨越 物种 界限 的 转移 。 这 一 现象 在 哺乳 
(Ferris 等 ，1983) 和 两 栖 类 (Spelsky 等 ，1984) 中 都 曾 发 现 。 显 而 易 见 ， 如 果 在 构建 分 子 
树 时 采用 的 是 从 其 它 物种 水 平 转移 而 来 的 DNA 序列 ， 则 结果 必然 与 物种 树 大 相 径 庭 。 

b. 祖先 多 态 性 (ancestral polymorphism). Hasegawa 等 (1989) 曾 用 图 1 来 描述 这 种 关 
系 。 假 定 A、B 两 物种 的 共同 祖先 C 在 某 个 位 点 < 是 多 态 的 (有 ci 和 cz 两 种 形式 )。 在 进 
化 的 过 程 中 ，c; 演化 成 a Ab. co 演化 成 as 和 bs。 如 果 依 据 a, 和 bj， 则 推测 的 祖先 为 
cl， 如 依据 as 和 b:， 则 推测 的 祖先 为 c,. 

为 了 避免 上 述 因 素 的 影响 ， 在 分 子 分 类 研究 中 应 尽 可 能 分 析 多 个 互 不 连锁 的 基因 位 点 
(Takahata 4%. 1985). 值得 指出 的 是 线粒体 DNA 在 遗传 消 漏 中 是 整个 转移 的 ， 因 此 、 即 
使 分 析 多 个 线粒体 基因 ， 亦 不 能 排除 上 述 因 素 1 的 影响 。 


3 ”分子 钟 与 分 子 分 类 


分 子 钟 (molecular clock) 这 一 假说 是 由 Zuckerkandle 和 Pauling(1965) 提 出 的 。 在 过 
去 的 20 年 中 它 一 直 是 分 子 进化 领域 争论 的 焦点 之 一 。 所 谓 分 子 钟 ， 指 的 是 某 一 特定 的 蛋 
白质 和 核酸 分 子 在 进化 过 程 中 每 年 发 生 的 位 点 置换 数 (进化 速率 ) 是 恒定 的 (不 同 的 分 子 的 
进化 速率 可 能 不 同 )， 因 此 每 一 种 蛋白 质 和 核酸 分 子 都 以 其 特定 的 节拍 为 进化 过 程 计 时 。 

关于 分 子 钟 的 争论 和 目前 仍 在 继续 。 根 据 作者 所 接触 的 文献 ， 下 列 现 点 似 为 大 多 数学 者 
所 接受 : 

a. 象 同位 素 豪 变 那 样 严 格 准 确 的 分 子 钟 并 不 存在 . 

b 在 许多 情况 下 ， 分 子 进 化 是 近似 恒 速 的 (approximately constant rate). 

c. 有 时 某 种 分 子 的 进化 速率 会 出 现 较 大 幅度 的 变动 。 造 成 这 种 现象 的 原因 主要 有 两 
A 一 是 不 同 谱系 突变 率 的 改变 ， 一 是 外 界 对 分 子 功能 约束 力 的 改变 (Kimura，1987)。 

分 子 钟 与 分 子 分 类 学 有 密切 的 关系 、 如 果 分 子 进 化 速率 在 不 同 谱系 中 相 善 数 十 倍 时 ， 
则 几乎 可 肯定 现 有 的 任何 分 子 分 类 方法 都 难以 得 出 正确 的 结果 。 在 现 有 的 方法 中 ， 对 分 子 
钟 依 赖 性 最 大 的 是 UPGMA 法 (unweighed pair group method using arthmatic average), 
对 分 子 钟 依赖 较 少 是 NJ 法 (neighbor joining method)(Saitou 等 、1987) 和 ML 法 (maxi- 
mum likelihood method)(Felsenstein, 1981; Kishino 4, 1989), PHYLIP—Phylogy 1n- 
ference Package (version 3.4)(Felsenstein，1991) 中 有 几 个 程序 可 检查 有 关 数 据 是 否 罕 合 分 
子 钟 。 如 DNAML 和 DNAMLK 都 是 分 析 DNA 序列 的 ML 法 程序 ， 前 一 种 不 假定 分 
子 钟 ， 而 后 一 种 则 假定 存在 分 子 钟 。 如 两 种 方法 的 结果 不 同 ， 则 说 明 有 关 数 据 中 不 存在 分 
Fa 


4 ”核酸 序列 数据 和 蛋白质 序列 数据 之 优 劣 


4.1.1 在 基因 编码 区 内 ， 密 码 子 第 3 位 的 进化 速率 快 于 前 两 位 ， 内 含 子 快 于 外 显 子 。 因 
此 在 分 析 整 段 核酸 序列 时 ， 如 用 单一 模型 来 描述 位 点 变化 的 规律 ， 则 可 能 与 实际 情况 出 人 
较 大 。 
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4.1.2 在 构建 分 子 树 时 ， 一 般 都 假定 核酸 中 各 位 点 的 进化 是 独立 的 .对 于 亲缘 较 远 的 物 
种 ， 由 寺 其 密码 子 的 偏爱 性 (codon bias) 可 能 不 同 ( 对 于 TRNA 序列 ， 则 由 于 碱 基 组 成 可 能 
不 周 )， 在 自然 选择 的 影响 下 ， 观 察 到 的 现象 可 能 偏离 上 述 假定 。 

4.1.3 核 苷 酸 的 偶合 在 完全 随机 的 情况 下 、 襄 不 相干 的 两 个 位 点 也 会 有 25% 的 机 率 彼 
此 正好 相同 。 


42.1 蛋白 质 中 位 点 变化 的 规律 可 用 经 验 模 型 描述 。 最 著名 的 是 Dayhoff 模型 
(Dayhoff, 1978). 
4.2.2 即使 在 密码 子 偏爱 性 显著 不 同 的 物种 问 、 亦 未 发 现 有 明显 的 氨基 酸 偏爱 性 。 

但 是 ， 与 核酸 序列 相 比 ， 蛋 白质 序列 的 信息 量 较 少 。 核 酸 中 的 某 些 变化 (如 同 义 突 变 ) 
在 相应 的 蛋白 质 序列 中 反映 不 出 。 因 而 也 有 人 主张 核酸 序列 更 好 {Meyer 等 ，1991)。 


5 MP、NJ 和 ML 法 之 比较 


MP 法 (most parsimony method， 即 很 定 强 察 到 的 变 北 在 进化 二 是 以 理论 上 可 能 的 最 
简短 的 步骤 实现 的 ) 也 许 是 迄今 用 得 最 多 的 方法 。 但 从 文献 上 看 、NJ 法 的 应 用 报道 日 益 增 
£. ML 法 虽然 理论 上 很 有 前 途 ， 但 有 关 应 用 报道 极 少 。 

关于 各 种 方法 的 优 劣 ， 不 同学 派 间 的 争论 很 激烈 。Higgins 等 (1991) 在 述 及 此 问题 时 
说 了 如 下 一 段 话 : "很 可 惜 的 是 此 领域 易于 形成 固执 已 见 的 学 派 ， 从 而 妨碍 了 对 不 同方 法 支 
持 和 反对 意见 的 合理 讨论 . "本 文 下 面 仅 介绍 作者 倾向 的 观点 : 

a. Felsenstein(1978) 曾 指出 : 当 不 同 谱系 的 进化 速率 有 较 大 变异 时 ，MBP 法 的 可 靠 性 
降低 。 如 Graur 等 (1991) 用 MP 法 分 析 员 齿 类 关系 时 发 现 中 齿 类 在 分 子 树 中 并 不 形成 单 系 
(monophyly), 38 JH Ae 11 At HK ER AI 3) Eb fi BE BETA). {E Hasegawa 等 (1992) 的 分 析 表 
RA: 尽管 MP 法 强烈 支持 吐 齿 类 和 多 系 起 源 树 ， 但 ML 法 并 不 支持 这 种 关系 。 

b. NJ 法 不 以 分 子 进化 等 速 性 为 前 提 、 据 Saitou 和 其 它 作 者 的 比较 分 析 、 此 法 的 准 
确 性 优 于 现 有 的 绝 大 多 数 构 建 分 子 树 的 方法 。 但 他 们 在 对 ML 法 的 分 析 比 较 时 有 从 妥 之 
处 {Hasegawa 等 ，1991)。 


Hl 三 种 方法 选择 正确 分 子 树 的 概率 c， 据 Hasegawa 等 (1991) 的 分 析 ， 
Tab. 1 Probabilities of three methods ML 法 也 许 是 现今 所 有 方法 中 准确 性 最 ， 
in obtaining right tree 高 的 一 种 。 表 1 是 ML 法 ，Jukes 一 


“SFR PERE ”ML 法 Juko- Cantor MP 法 Cantor 距离 法 和 MP 法 之 比较 。 从 表 中 

v,=1.0. y=0.! 0.92 0.70 0 可 见 、 当 进化 速率 有 十 倍 之 差 时 ，ML 

ras Slat ton tay 法 选择 正确 桂 的 概率 仍 高 达 92%. MP 

法 则 为 0。Hasegawa 等 (1991) 对 ML 

和 NJ 法 的 进一步 比较 分 析 表 明 : 当 分 

子 醒 速 进化 时 、 两 者 的 效率 相似 ， 当 分 

子 进化 速率 有 较 大 变异 时 、MEL 法 优 于 NJ 法 。 值 得 注意 的 是 NJ 法 的 创立 者 Saitou 亦 是 
该 文 的 合作 者 。 

ML 法 的 一 个 严重 缺点 是 其 计算 量 太 大 、 在 微机 上 运行 得 极 慢 ， 当 分 析 的 物种 数 或 分 

子 的 位 点 数 较 多 时 ， 这 一 问题 尤其 严重 。NJ 法 准确 性 既 高 ， 运 行 速度 又 极 快 、 故 是 一 种 







采 自 Hasegawa 等 (19911. 
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极 有 前 途 的 方法 . 
6 关于 分 子 树 的 可 靠 性 


构建 分 子 权时， 一般 采取 图 2(a) 或 图 2(b) 两 种 途径 之 一 ， 在 图 2(a)， 由 于 数据 组 中 的 
物种 是 按 其 先后 次 序 逐 个 添加 到 树 上 去 的 ， 因 而 物种 在 分 子 树 中 的 位 置 可 能 受到 物种 在 数 
据 组 中 的 先后 次 序 的 影响 ， 考虑 到 这 个 因素 ， 可 有 意 将 有 疑问 的 物种 置 于 数据 组 之 末 . 此 
外 ， 还 可 采取 下 列 方法 : 

a. 进行 全 局 重 排 (global rearrangement). HEA: 在 建成 分 子 树 后 ， 将 某 个 分 支 
从 树 上 移出 ， 以 尝试 树 中 是 否 有 其 它 更 合适 的 位 置 。 将 其 中 的 每 个 分 支 都 这 样 进行 重 排 
后 ， 最 后 得 到 的 分 子 树 理论 上 来 说 应 更 合理 。 在 PHYLIP(3.4)(Felsenstein，1991) 中 大 部 
分 程序 都 有 全 局 重 排 功能 ， 不 过 有 时 并 未 将 其 作为 默认 值 (default)。 


表 2 Bootstrap M Jacknife 复制 
Tab. 2 Bootstrap replication and Jacknife replication 


原始 序列 SPECIES] IKEA WGLLHQIPNA—GGEAL 
SPECIES2 IKHLTGSLRTNAEAWGAESL 

Bootstrap SPECIES] IKEAAGGLLHHHQQ1P—GGE 

复制 SPECIES2 IKHLLGGSSRRRTTNAWGGE 

45 次 ) SPECIES1 LIIKEWGLLQQPN-GGGGALL 
SPECIES2 MUKHTGLLTTAEWGAAASLL 
SPECIES! | IKWGGHQIA-GGGGGALLLL 
SPECIES2 IKTGGRTNAWGGGAASLLLL 
SPECIES1 IEEWGGLLLLLPNNGGGGEL 
SPECIES2 IHHTGGSSSLLAEEGGGAEL 
SPECIES1 IEWWLLLNNA—GGGEEAAL 
SPECIES2 IHTTLLLEEA WWGAAEESSL 

Jacknife SPECIES1 IKEAWLQI-E 

复制 SPECIES2 IKHLTSTNWE 

(5 K} SPECIES! IEAGHQAGEA 
SPECIES2 IHLGRTAAES 
SPECIES1 KWHPNGGEAL 
SPECIES2 KTRAEGAESL 
SPECIES1 IGLQIA-GEA 
SPECIES? IGLTNAWAES 
SPECIES1 KAHQPNGGAL 
SPECIES2 KLRTAEGASL 


b. 以 多 种 不 同 的 次 序 输 人 数据 进行 多 次 和 运算。 通过 比较 多 次 和 运算 结果 ， 可 以 了 解 是 
否 还 有 其 它 同样 合适 的 分 子 树 。 

由 于 分 子 分 类 的 程序 繁多 ， 研 究 人 员 在 构建 分 子 树 时 往往 会 试用 几 种 不 同 的 方法 ， 对 
此 有 一 点 应 引起 注意 : 即 多 种 方法 都 支持 同一 树 并 不 说 明 该 树 在 统计 学 上 更 可 靠 。 
Felsenstein(1991) 曾 举例 说 明 此 问题 : 假如 有 100 个 性 状 ， 其 中 51 个 支持 ((A，B)，C 〇 )， 
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49 个 支持 (A，(B，、C))。 用 几 种 不 同 的 方法 分 析 可 能 都 得 到 前 一 种 结果 ， 但 51 : 49 的 支 
持 率 在 统计 学 上 是 不 显著 的 。 

近 10 年 分 子 分 类 理论 方面 的 最 大 进步 也 许 是 有 关 分 子 树 置 信 区 间 分 析 方 法 的 建立 和 
发 展 。 在 分 析 分 子 树 置信 区 间 时 ， 常 用 的 是 下 列 两 种 方法 : 

a) Bootstrap or Jacknife Replication( 暂 译 为 自 导 复制 或 奔 半 复制 )。Bootstrap 复制 
是 由 Felsenstein(1985) 引 人 分 子 分 类 领域 的 ， 现 已 成 为 分 析 分 子 树 置信 区 间 最 常用 的 方 
法 。 其 原理 为 : 假定 某 序 列 Au。 有 NiE, Bootstrap 复制 时 从 A, 中 随机 取 N 个 位 
点 (Au 中 的 某 些 位 点 可 能 被 随机 遗漏 ， 而 某 些 位 点 则 可 能 取 到 不 止 一 次 ) 组 成 一 个 新 序列 
Al。 对 一 组 数据 复制 n 次 ， 便 可 得 由 Au 衍生 的 n 组 数据 ( 表 2)。 由 此 可 构建 n 个 分 子 
树 ， 从 这 nn 个 分 子 树 统计 得 一 致 树 (consensus tree)， 一 致 树 中 各 分 支 结构 在 n 个 分 子 树 中 
出 现 的 比率 便 表示 原始 数据 对 该 结构 的 支持 率 ， 

Jacknife 复制 是 从 N 个 位 占 中 随机 取 N /2 个 位 点 组 成 新 序列 ， 其 余 与 Bootstrap 法 
相似 ( 表 2)。 

关于 复制 次 数 ， 应 考虑 下 列 因 素 : 复制 次 数 太 少 ， 波 动 性 太 大 ; 复制 次 数 多 ， 则 可 能 
计算 量 太 大 而 太 费 时 间 。 从 文献 上 看 一 般 大 多 在 30 一 1000 次 之 间 。 最 近 Hedge(1992) 指 
出 ; git 0.95 的 Bootstrap 概率 值 (简称 BP 值 ) 在 统计 学 上 可 信 ， 应 复制 2000 次 。 当 复制 
次 数 少 于 73 次 时 ， 对 于 1.00 的 BP 值 也 不 能 相信 . 

由 于 许多 方法 建立 的 都 是 无 根 树 ， 对 于 新 手 而 言 ， 在 解释 无 很 树 中 的 BP 值 时 常会 遇 
到 一 些 困 难 。 图 3 是 一 个 以 E、F 作 外 群 (outgroup) 的 无 根 树 ， 图 中 有 3 个 BP 值 0.20， 
0.99 和 1.00. 0.20 的 BP 值 指 的 是 将 图 3 中 所 有 物种 分 为 (C，DJ) 和 (A，B， 王 ，F) 两 群 的 
概率 为 20%; 同 理 ，0.99 BP 值 指 的 是 将 物种 分 为 (B，C，D) 和 和 {A，E，F) 两 群 的 概 
率 ， 决 非 指 (B，(C，D)) 结 构 的 概率 为 99%; 图 中 1.00 的 BP 值 亦 非 指 (A，(B，(O))) 的 
HEH 100%. 

另外 要 注意 的 是 BP 值 只 是 就 特定 的 
方法 、 特 定 的 数据 而 言 ， 用 不 同方 法 或 用 
同一 方法 不 同 数据 分 析 同 一 组 物种 ， 所 得 
有 关 BP 值 可 能 会 有 所 不 同 。 但 Meyer 
等 (1990) 曾 指出 : 互相 矛盾 的 分 子 树 都 得 
到 统计 学 显著 水 平 支持 的 例子 是 极 少 见 
的 。 

b) 分 子 树 的 可 靠 性 亦 可 由 标准 差 居 
计 。 这 一 方法 首先 由 Kishino 等 (1989) 提 
出 。 该 法 在 对 儿 个 特定 分 子 树 进行 比较 分 





图 3 无 根 树 中 的 BP 值 析 时 特别 有 用 。 例 如 对 于 某 一 群 物种 的 系 
Fig. 3 Bootstrap values in unrooted tree 统 发 生 ， 有 3 种 不 同 的 观点 (A、B、C 3 
图 示 由 A，B，C、D、E. F 6 个 物种 组 成 的 无 报 种 系统 树 )。 用 MP 法 分 析 得 到 的 最 佳 树 
树 。 利 用 E，F 作 外 群 ， 树 的 报 由 此 定 于 E、F 和 F A. 但 A 是 否 显著 优 于 B、C 呢 ? 这 
A. B. C. D 之 间 . 图 中 的 数值 为 BP 值 . 就 可 通过 比较 方差 (或 标准 差 ) 确 定 。 当 


B、C 与 A 所 需 的 进化 步骤 数 之 差 大 于 其 
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标准 差 的 1.96 倍 时 ， 则 认为 B、C 与 A 有 显著 性 差异 ， 即 A 显著 优 于 B、C。 由 于 该 法 
涉及 复杂 的 统计 公式 、 此 处 就 不 作 详 细 介 绍 了 。PHYLIP(3.4)Felsenstein，1991) 中 许多 
程序 都 可 进行 此 项 分 析 。 


7 分 类 软件 PHYLIP(3.4) 和 R CLUSTAL V 


PHYLIP—Phylogy Inference Package (Version 3.4)(Felsenstein，1991) 也 许 是 迄今 用 
得 最 多 的 程序 包 。 据 Felsenstein 估计 ， 现 在 经 其 许可 的 拷贝 已 达 1600 个 以 上 ， 
PHYLIP(3.4) 中 包括 31 个 程序 ( 表 3)、 共 占 约 6MB 空间 。 

7.1 PHYLIP(G3.4 有 下 列 优 点 : 
7.1.1 运行 环境 要 求 不 高 。286 或 386 微机 加 MS- PC-DOS 即 可 。 


表 3 PHYLIP(3.4) 中 的 程序 
Tab. 3 Programs in software PHYLIP (version 3.4) 


Programs for molecular sequence data 





PROTPARS Protein parsumony 
DNAPARS Parsimony method for DNA 
DNAMOVE Interactive DNA parsimony 
DNAPENNY Branch and bound for DNA 
DNABOOT Bootstrap confidence intervals for DNA parsimony 
DNACOMP Compatibility for DNA 
DNAINVAR Phylogeneuc invarianis (Lake’s and Cavender’s) 
DNAML Maximum likelihood method for DNA 
DNAMLK DNAML with molecular clock 
DNADIST Distances from sequences 
RESTML Maximum Likelihood for restriction sites 
SEQBOOT Booistraps sequence data sets 
Programs for distance mairtx data 
FITCH Fitch-Margeliash and least-squares methods 
KITSCH Fitch—Margoliash and leasi—squares methods with molecular clock 
NEIGHBOR Neighbor—joining and UPGMA methods 
Programs for gene frequencies and continuous characters 
CONTML Maximum likelihood method 
GENDIST Computes genetic distances 
CONTRAST Computes contrasts and correlations for comparative method studies 
Programs for discrete state data 
MIX Wanger. Camin-Sokal, and mixed parsimony 
MOVE Interactive Wanger, C—S. mixed parsimony 
PENNY All most parsimonious irees by branch—aid—bound 
BOOT Bootstrap confidence interval 


DOLLOP, DOLMOVE, DOLPENNY, DOLBOOT same as preceding four but for Dolla, 
Polymorphism parsimony criteria 


CLIQUE Compatibility method 
FACTOR Recode multistate characters 

Programs for plotting irees and making consensus irees 
DRAWGRAM Draws cladograms and phenograms on screens. plotters and printers 
DRAWTREE Draws unrooted phylogenies on screens, plotters and printers 
CONSENSUS Majority—rule and strict consensus tree 


7.1.2 程序 种 类 繁多 。 可 分 析 核 酸 、 蛋 白 序列 、 连 续 性 状 、 独 特性 状 {0.1? 性 状 ]， 基 因 频 
率 等 数据 。 
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7.1.3 几乎 所 有 程序 都 能 给 出 结果 的 置信 区 间 。 
7.1.4 结果 能 以 图 象 方式 输出 。 
7.2 CLUSTAL V 是 由 Higgins 等 (1991) 编 制 的 分 子 序 列 排列 程序 ， 亦 可 用 于 分 类 研 
RH. RRAA: 
7.2.1 能 自动 识别 几 种 不 同 覆 式 的 分 子 序 列 。 
7.2.2 能 以 多 种 格式 { 包 括 PHYLIP 络 式 ) 输 出 排列 好 的 序列 。 
7.2.3 能 构建 NJ 树 并 可 分 析 其 置信 区 间 。 
# 442 CLUSTAL V 的 主要 功能 。 





324 CLUSTAL V 菜单 
Tab. 4 The menu of software CLUSTAL Y 


l. Sequence Input From Disc 
2. Multiple Alignments 
l. Do complete multiple alignment now 
2 Produce dendrogram file only 
3. Use old dendrogram file 
4. Pairwise alignment parameters 
5. Multiple alignment parameters 
6. Output format options 
3. Profile Alignments 
l. Input Ist. profile / sequence 
2. Input 2nd. profile / sequence 
3. Do alignment now 
4 Alignment parameters 
4. Phylogenetic Trees 
1. Input an alignment 
2 Exclude positions with gaps? 
3 Correct for multiple substitutions? 
4. Draw tree now 
3. Bootstrap tree 
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SOME ISSUES IN MOLECULAR SYSTEMATICS 


Zhang Yingpei 
(Department of Aquaculture, Shanghai Fisheries University, Shanghai 200090) 


Abstract 


This article gives a brief introduction to several important issues in molecular 
systematics, that is, (1) advantages and limitations of molecular systematics; (2) relation- 
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ship between molecular tree and species tree: (3) relationship between molecular clock and 
molecular systematics; (4) comparison of nucleotide sequence data and amino acid sequence 
data; (5) comparison of MP, NJ and ML method: (6) reliability of molecular tree. Two 
widely used softwares. PHYLIP and CLUSTAL V are briefly described. 

Key words Molecular systematics, Molecular tree. Species tree 
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